Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/ds_interview_lib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/957 -
Telegram Group & Telegram Channel
Есть ли встроенные модели регрессии, которые напрямую работают с пропущенными данными

Да, некоторые модели на основе деревьев решений (включая реализации градиентного бустинга и случайных лесов) могут обрабатывать пропущенные данные внутренне. Например, определённые вариации деревьев решений могут использовать суррогатные разбиения или разделения по умолчанию для объектов с отсутствующими значениями признаков.

Это значит, что модель может выбрать альтернативный путь по дереву, если основной признак отсутствует.

Такие механизмы встроены, например, в:
➡️ XGBoost (можно задать missing),
➡️ LightGBM (имеет встроенную поддержку NaN),
➡️ CatBoost (автоматически обрабатывает пропуски).

Однако, несмотря на удобство, следует внимательно оценивать качество модели, особенно если:
➡️ пропусков много,
➡️ отсутствие значений связано с целевой переменной или другими признаками.

В таких случаях простая внутренняя обработка может быть недостаточной, и потребуется анализ природы пропусков или применение более обоснованных методов (импутация, маскирование и др.).

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/957
Create:
Last Update:

Есть ли встроенные модели регрессии, которые напрямую работают с пропущенными данными

Да, некоторые модели на основе деревьев решений (включая реализации градиентного бустинга и случайных лесов) могут обрабатывать пропущенные данные внутренне. Например, определённые вариации деревьев решений могут использовать суррогатные разбиения или разделения по умолчанию для объектов с отсутствующими значениями признаков.

Это значит, что модель может выбрать альтернативный путь по дереву, если основной признак отсутствует.

Такие механизмы встроены, например, в:
➡️ XGBoost (можно задать missing),
➡️ LightGBM (имеет встроенную поддержку NaN),
➡️ CatBoost (автоматически обрабатывает пропуски).

Однако, несмотря на удобство, следует внимательно оценивать качество модели, особенно если:
➡️ пропусков много,
➡️ отсутствие значений связано с целевой переменной или другими признаками.

В таких случаях простая внутренняя обработка может быть недостаточной, и потребуется анализ природы пропусков или применение более обоснованных методов (импутация, маскирование и др.).

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/957

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Newly uncovered hack campaign in Telegram

The campaign, which security firm Check Point has named Rampant Kitten, comprises two main components, one for Windows and the other for Android. Rampant Kitten’s objective is to steal Telegram messages, passwords, and two-factor authentication codes sent by SMS and then also take screenshots and record sounds within earshot of an infected phone, the researchers said in a post published on Friday.

Библиотека собеса по Data Science | вопросы с собеседований from cn


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA